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基于 Sentence2vec 与 半 监 督 算法 的 中 文 问答 提问 模式 抽取 
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摘 要 : 关系 抽取 是 信息 抽取 中 一 项 重要 任务 ， 在 处 理 问 答对 形式 的 文本 时 ， 除 了 文本 中 实体 间 的 关系 抽取 之 外 ， 作 
为 连接 问 句 和 答 句 之 间 关 系 的 提问 模式 同样 需要 抽取 。 通 过 有 监督 的 标注 算法 (条 件 随机 场 ) 与 基于 模板 元 组 自 举 的 半 
监督 算法 ek tA oA ne 捷 移 到 提问 模式 抽取 中 ， 
针对 这 种 情况 通过 引入 名 向 量 计算 文本 相似 度 并 选取 和 句 式 模板 ， 提 出 一 种 基于 sentence2vec 技术 与 半 监 督 算法 结合 的 
模型 。 对 于 最 终 实 验 ， 采 用 随机 抽样 进行 验证 。 en 相 较 于 传统 的 半 监 督 算法 ， 本 文 的 方法 得 到 了 更 高 的 
准确 率 和 召回 率 。 
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Question pattern extraction based on Sentence2vec and 
semi-supervised algorithm for Chinese Q&A 


Zhang Jinren, Jin Yun, Wang Yu 
(School of Computer Science, Nanjing University of Posts & Telecommunications, Nanjing 210003, China) 


Abstract: Relation extraction is an important task in information extraction. While dealing with the question-answer pairs, in 


addition to the relations among the entities in the texts, the question pattern as the relation connected questions and the answers 


also needs to be extracted. The combination of the supervised labeling algorithm (conditional random field) and the semi- 


me supervised algorithm based on a feature template (bootstrapping) has a good performance when extracting relationships between 


entities. However the method to find the template in the traditional semi-supervised algorithm was hard to move to the extraction 


of the question pattern. Therefore, a model based on the combination of sentence2vec technology and semi-supervised algorithm 
is proposed, which introduce the sentence vector to calculate the text similarity and select the sentence template. Random 
= sampling validation is used to verify the final result. The experimental results show that the method has higher precision and 
recall values than the traditional semi-supervised algorithm. 
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0 引言 句 或 者 答案 在 内 容 和 届 辑 上 是 缺失 的 。 而 连接 问 名 与 答案 的 
关系 就 是 提问 模式 。 针 对 问答 对 形式 的 文本 ， 关 系 抽取 包括 

随 着 移动 互联 网 的 普及 与 发 展 ， 大 量 结构 各 异 、 不 同 领 ” 提问 模式 抽取 “〈 即 问题 与 答案 之 间 的 关系 ) 及 内 容 关 系 抽取 
域 的 文本 不 断 涌现 。 为 了 从 这 些 开 放 式 的 文本 中 抽取 非 限 定 ( 即 实体 与 实体 间 的 关系 〉》 外 。 目 前 ， 针 对 实体 间 关 系 抽取 的 
类 型 的 关系 实例 ， 开 放 式 关系 抽取 的 概念 被 提出 趾 。 关 系 抽 取 ”研究 较为 成 熟 ， 但 将 部 分 算法 迁移 到 提问 模式 抽取 时 ， 算 法 
作为 信息 抽取 中 的 重要 步 又， 最 终 目 的 是 建立 文本 中 实体 或 。 的 性 能 会 下 降 。 中 文 问答 对 当中 的 提问 模式 抽取 挑战 在 于 ， 
事件 间 语 义 逻辑 上 的 关联 ， 并 形成 结构 化 表示 已 3。 问 答对 是 ”除去 一 些 规整 的 特殊 字符 ， 提 问 模 式 的 表述 方式 会 有 很 多 ， 
其 中 一 种 特殊 形式 的 文本 。 作 为 人 工 客 服 记 录 、 社 区 论坛 页 甚至 相互 文本 之 间 的 间隔 很 远 。 另 外 中 文 当中 的 一 词 多 义 情 
面 文档 、 智 能 搜索 引擎 等 众多 类 型 文本 的 载体 ， 问 答对 包含 。 况 也 是 需要 克服 的 问题 。 完 善 面向 问答 对 的 关系 抽取 技术 ， 


着 丰富 的 信息 与 知识 ， 面 向 问答 对 的 开放 式 关 系 抽取 正成 为 ” 对 理解 用 户 语 义 和 提 问 意图 、 构 建 智能 问答 系统 、 促 进 建 立 
业界 研究 的 热点 。 知识 库 等 方面 有 着 重要 意义 器。 
问答 对 是 一 种 上 下 文具 有 逻辑 关联 性 的 文本 ， 匠 立 的 问 前 提问 模式 抽取 的 方法 主要 分 为 基于 知识 工程 和 基于 
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机 器 学 习 两 种 方法 。 在 
要 充分 考虑 文本 的 元 余 


盖 率 等 问题 无 法 很 好 的 解决 3 

基于 机 器 学 习 的 方法 可 以 分 为 三 种 : 
督 算法 和 无 监督 算法 。 在 有 监督 学 习 中 ， 
取出 关系 元 组 ， 如 者 
身 过 于 依赖 特 生 


准确 


大 时 ， 算 法 无 法 有 效 覆 盖 数 据 。 


口 歼 


， 经 典 的 如 


面向 开放 式 问 答对 的 抽取 过 程 中 ， 
生 以 及 抽取 方法 的 轻 量化 ， 因 此 ， 晶 


于 规则 模板 和 模式 学 习 等 知识 工程 方法 四 由 于 本 身 移植 性 和 履 


开放 式 提问 模式 抽取 。 


够 
于 图 模型 的 算法 CRF[1， 但 算法 本 
FE 模板 构建 以 及 大 量 人 工 标注 量 ， 


有 监督 算法 、 半 监 
一 些 传统 算法 能 


ChinaXiv 合 作 期 刊 


张 金 和 于， 等: 基于 Sentence2vec 与 半 监 督 算法 的 中 文 问 答 提 问 模式 抽取 


已经 有 不 少 成 果 ， Brin 等 利用 半 监 督学 习 的 方法 ， 设 计 出 
DIPRE (Dual Iterative Pattern Relation Expansion ) 系统 。 

该 系统 通过 对 少量 种 子 模板 的 不 断 和 迭代， 实现 了 自动 抽取 Web 
页 面 上 的 实体 信息 和 实体 关系 。Banko 等 人 首次 提出 了 OpenIE 
(OIE) 的 概念 ， 他 设计 的 TextRunner 系统 采用 启发 式 规则 进 
行 自动 标注 得 到 种 子 模板 ， 并 对 种 子 模板 学 习 生 成 分 类 器 ， 

进而 进行 抽取 [9。Wu 等 人 提出 的 WOE 又 借助 维基 百科 的 条 


16] 


当 数 据 量 增 


性 等 信息 进行 标注 ， 提 高 了 标注 的 质量 


军 
[| 


监督 算法 能 够 有 效 提升 
DIPREIM， 该 方法 的 关键 在 于 如 何 发 现 包 含 J 
确 元 组 的 句子 模式 ， 传 统 做 法 
监督 算法 的 思路 是 对 可 能 包含 关系 词 的 文本 进行 聚 类 ， 闪 
类 结果 中 的 高 频 词 作 为 关系 类 型 "9。 无 监督 学 习 的 问题 在 于 


， 出 现 “ 语 义 漂移 ”的 现象 。 


中 文 领域 中 的 关系 抽取 目前 也 取得 了 很 多 成 果 。 吴 友 政 
A 


| 


等 提出 一 种 基于 无 监督 算法 的 提问 模式 抽取 方法 ， 结 合 模 板 


[os 


Ey 
沸 


对 于 关系 聚 类 的 结果 无 法 定义 ， 而 且 对 于 低频 的 关系 表述 难 


以 抽取 ， 因 此 无 监督 算法 一 般 不 独立 解决 抽取 问题 。 无 监督 
算法 中 基于 深度 学 习 的 文本 聚 类 思想 与 其 他 机 器 学 习 算 法 结 


合 是 目前 


主流 的 方法 ， 其 中 基于 稀 玻 表示 的 分 类 〈SRC) 方法 
在 模式 识别 和 机 器 学 习 方面 取得 了 许多 成 功 00。 


sentence2vec[3 就 是 一 种 轻 量 级 基于 深 


示 算 法 ， 本 文 将 利用 其 在 计算 文本 相似 度 方面 
于 改进 半 监 督 算法 。 


为 了 提升 提问 模式 抽取 的 性 能 


sentence2vec 的 半 监 督 算法 模型 。 在 提问 模式 的 关系 元 组 中 


的 无 监督 稀疏 表 
的 优异 性 能 用 


度 学 习 


， 本 文 提出 一 种 基于 


提问 模式 的 两 端 可 能 是 实体 ， 也 可 能 是 多 个 实体 与 关系 构成 


的 事件 。 


为 了 便于 描述 ， 


二 可 
结合 


TAC 对 事件 的 定义 ， 本 文 将 问 


匹配 ， 在 面向 开放 式 文本 抽取 时 ， 取 得 了 不 错 的 效果 01。 刘 
安安 等 人 设计 了 面向 句子 级 的 开放 式 关 系 抽取 系统 TMS， 该 
系统 通过 启发 式 的 模板 对 其 进行 筛选 ， 在 句子 级 的 关系 抽取 
比 传统 的 方式 性 能 有 所 提升 9。 王 明 印 等 人 提出 了 SCOERE 
的 半 监 督 开放 式 关系 抽取 方法 ， 对 的 句子 进行 二 元 实体 关系 
进行 标注 ， 并 通过 自学 习 的 方式 提高 了 监督 学 习 方法 的 性 能 


09]。 


2 ”提问 模式 抽取 模型 


模型 描述 

图 1 是 本 文 提 出 的 开放 式 提 问 模 式 抽取 模型 ， 核 心 部 分 为 
基于 sentence2vec 技术 的 自动 标注 与 半 监 督 算 法 Bootstrapping 
结合 的 闭环 模块 。 原 始 语 料 通 过 数据 预 处 理 部 分 得 到 文本 特 
正 并 进行 词 向 量 (word embedding) 的 构建 。 文 本 特征 与 人 工 
标注 用 于 生成 有 监督 学 习 模型 CRF ， 模 型 产生 提问 模式 的 种 


2.1 


EN 


题 中 除了 提问 模式 的 字符 串 序 列 〈 即 对 提问 内 容 的 描述 部 分 ) 
称 为 提问 事件 E1， 答 案 字 符 序列 称 为 对 El 的 答案 事件 E2， 提 
问 模 式 为 两 者 之 间 的 关系 R， 最 终 将 一 条 问答 对 生成 形 如 (El， 


R，E2) 的 三 元 组 


子 集 。 种 子 集 与 词 向 量 作 为 自动 标注 的 输入 用 于 发 现 同 义 句 
式 ， 结 合 半 监 督 算法 不 断 迭 代 抽 取 新 的 提问 模式 ， 选 取 其 中 
高 置信 和 度 的 元 组 输出 。 接 下 来 本 章 将 详细 介绍 每 个 模块 的 原 


|。 本 文 的 方法 


式 的 种 子 集 ， 再 


统 半 监督 算法 


首先 通过 有 监督 算法 得 到 提问 模 
通过 半 监 督 算法 用 以 扩充 


取 元 组 量 ， 对 传 


H 通过 匹配 实体 发 现 句 式 的 方法 提出 了 改进 ， 
利用 sentence2vec 技术 与 半 监 督 算 法 结合 ， 


与 传统 方法 对 比 实 


验 结果 表明 ， 本 文 的 算法 抽取 的 正确 提问 模式 数量 明显 增加 ， 


敌 盖 率 也 有 了 
1 ”相关 工作 
早期 的 关系 抽取 主要 依赖 了 


F 预定 义 的 关系 类 型 ， 


明显 的 提升 ， 有 效 的 提升 了 半 监 督 算 法 的 性 能 。 


MUC-7 


会 议 上 首先 提出 了 Location of、Employee_ of、Product of 三 种 


大 类 关系 。 抽 取 方 法 也 从 模式 匹配 转 
在 某 些 特定 领域 取得 了 不 错 的 效果 [1。 


数据 集 时 ， 事 4 
随 着 OpenIEU4 


学 习 方法 的 开始 成 为 


面向 商业 活动 内 容 的 关系 [站 。 之 后 的 ACE 会 议 又 将 关系 种 类 
定义 为 包括 机 构 关系 、 整 体 部 分 关系 、 人 -社会 关系 在 内 的 


并 


向 机 器 学 习 。 这 些 而 
在 面 对 Web 页 面 海 量 


定义 好 关系 类 型 的 抽 ] 
概念 的 提出 与 兴起 ， 机 
究 的 热点 。 


取 方 法 就 很 难 胜任 了 。 


器 学 习 方 法 尤其 是 深度 


在 英文 领域 中 ， 开 放 式 实体 关系 抽取 的 相关 研究 与 技术 


里 及 实现 过 程 。 


数据 预 处 理 


“| 人工 标注 


特征 标注 
自动 标注 ”< 一 一 


和 迭 代 抽 取 元 组 。 发 现 句 式 | 


生成 模型 


六 监督 算法 


一 有 监督 算法 


生成 高 置信 度 
三 元 组 


图 1 提问 模式 抽取 模型 


2.2 ”基于 监督 算法 CRF 的 提问 模式 抽取 

基于 马尔 可 夫 随 机 场 的 CRF 是 目前 主流 的 标注 算法 ， 在 
诸如 图 像 检测 与 中 文 分 词 领 域 都 取得 了 不 错 的 效果 中 。 其 本 
质 是 在 给 定 的 随机 变量 和 时 ， 随 机 变量 Y 的 马尔 可 夫 随 机 场 。 
如 在 线性 链 上 ， 
立 则 是 输出 的 状态 序列 (Y1, Y2, Y3……, Yn)， 在 给 定 输入 数据 
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X 时 ， 通 过 条 件 随机 场 的 条 件 转移 概率 模型 P (yx) 得 到 输出 序 
列 Y。 条 件 转移 概率 模型 如 下 : 


2 Dt Onn) Bs) (1) 


p(ylx)= 


Z(x)= 2 bE yo Hi) + ONS (yi) (2) 


CRF 同时 支持 多 元 特征 扩展 ， 扩 展 关键 在 于 两 点 : 上 下 


文 观测 窗口 和 特征 选择 。 在 观测 窗口 方面 ， 作 为 典型 的 n- 


Ghinaxiv 合 全 期 刊 


(lefi,tag, mid,,,tag,, mid,s,tag,, right) (3.1) 

在 这 里 tagi(i=1,2,3) 是 指 实体 及 其 之 间 的 关系 描述 ， 在 
本 文 即 为 事件 与 提问 模式 。 而 left 和 right 则 为 上 下 文 ，mid 为 
实体 间 的 文本 。5) 是 从 未 标注 语 料 U 中 提取 符合 模式 P 的 高 置 
信 度 的 元 组 R”。 本 文 将 句 式 中 实体 及 停 用 词 之 外 的 部 分 标注 
为 提问 模式 ， 选 取 高 置信 度 的 元 组 ， 置 信 度 的 计算 公式 为 


加 


conf (KJ=1-] [一 Pet ， 其 中 已 。 表示 模式 己 抽 取 的 关 


sel 


gram 模型 ，n 为 观测 窗口 。n 越 大 ， 效 果 越 好 ， 但 同时 计算 复 
杂 度 也 越 高 。 一 般 来 说 ， 当 n>4 时 ， 提 升 的 效果 趋 于 平缓 。 在 
本 文 第 四 章 的 实验 中 ， 会 详细 介绍 窗口 大 小 调 优 过 程 。 

在 特征 选取 方面 本 文选 取 了 以 下 几 个 特征 ， 词 语 特征 、 
词性 特征 、 实 体 类 型 、 依 存 路 径 和 依存 关系 类 型 。 实 体 类 型 
是 指 实体 所 属 类 型 ， 分 别 是 领域 内 实体 类 型 、 机 构 名 实体 类 


系 元 组 的 数量 ， p={p;} 表示 抽取 到 的 提问 模式 K 的 句子 模式 。 
简 而 言 之 ， 若 同一 个 提问 模式 可 以 从 很 多 个 句子 模式 中 抽取 
出 来 ， 便 被 认为 是 一 个 可 信 的 提问 模式 。 接 下 来 将 介绍 本 文 
对 构造 句 式 部 分 的 改进 。 
2.4 基于 sentence2vec 的 语义 相似 度 计算 

提问 模式 的 两 端 并 不 以 显 性 的 实体 作为 固定 上 下 文 旬 


型 、 时 间 类 型 、 地 点 类 型 及 其 他 。 词 语 的 依存 路 径 特征 是 
两 项 特征 表示 : 1. 词 语 是 否 为 其 他 词语 的 依存 词 ，2. 当 前 词语 
所 在 依存 树 的 层 数 。 

人 工 标注 除了 传统 的 B、I、E、0 标注 类 型 之 外 。 对 于 提 
问 模式 缺 省 的 文本 ， 本 文 在 句 尾 的 标点 上 标注 为 L (lack) 以 
区 分 陈述 句 。 
2.3 ”基于 半 监 督 算 法 Bootstrapping 的 提问 模式 抽取 

有 监督 算法 CRF 可 以 取得 不 错 的 准确 率 ， 但 召回 率 较 低 。 
半 监 督学 习 方法 Bootstrapping 在 传统 关系 抽取 中 表现 出 不 错 的 
召回 率 ， 以 少量 已 标注 种 子 集 为 输入 ， 利 用 模式 元 组 二 元 性 ， 
不 断 迭 代 发 现 包 含 新 关系 句子 模式 ， 再 从 句 式 中 得 到 可 信 的 


| 


的 标识 ， 因 此 传统 的 Bootstrapping 利用 实体 作为 模板 窗口 标识 
的 方法 不 能 有 效 的 迁移 到 提问 模式 抽取 的 问题 上 。 构 造句 式 
的 在 于 同 义 句 中 对 不 同 提问 模式 的 表述 进行 抽取 ， 本 文 提 
出 一 种 基于 sentence2vec 的 语义 相似 度 计 算 ， 用 于 得 到 同 义 或 
近 义 的 句子 模式 。 
传统 的 计算 句子 相似 度 一 般 是 将 句子 中 的 词语 映射 到 one- 
hot 形式 的 向 量 中 ， 通 过 计算 句子 间 的 编辑 距离 (包括 欧 氏 距 
离 ， 余 弦 相 似 度 等 ) 得 到 结果 ， 这 类 基于 字符 或 词语 的 算法 
无 法 表示 上 下 文 的 关联 ， 因 此 无 法 真正 得 到 语义 相似 的 句子 。 

而 基于 深度 学 习 得 到 的 语言 模型 能 够 较 好 的 表示 上 下 文 
词语 的 联系 。 其 中 ， 一 种 轻 量 级 的 sentence2vec 在 对 句子 级 文 
本 进行 高 维 向 量 映射 表现 出 了 不 错 性 能 。 在 该 方法 中 ， 每 个 


关系 元 组 ， 在 本 文中 即 为 提问 模式 。 
Bootstrapping 的 模式 元 组 二 元 性 是 指 ， 以 实体 为 窗口 的 三 句子 的 语义 向 量 c, 的 语义 概率 模型 为 
元 组 上 下 文 会 形成 一 个 句子 模式 ， 新 的 关系 描述 可 能 来 自 相 exp (vsc,) 
p(slc)=|[ [p(we,)=[ | aptw)+(-0)O— | a 
同 的 句子 模式 ， 相 反 的 ， 一 个 可 信 的 三 元 组 一 定 会 出 现在 不 ll ll Z 
同 的 句 式 中 ， 因 此 理论 上 当 有 一 个 理想 的 生成 句 式 的 方法 时 ， 其中: w 表 示 当 前 词语 ，c, 表示 当前 句 向 量 表示 ，% 为 自 定 


就 可 以 借助 少量 的 种 子 元 组 不 断 发 现 不 同 的 句 式 ， 继 而 抽取 
更 多 的 元 组 。Bootstrapping 算法 如 下 : 

算法 1: Bootstrapping 

输入 : 少量 带 标注 的 语 料 T.， 大 量 未 标注 语 料 U 

输出 : 大 量 可 信 的 带 标注 TT. 


1) Foreach TT 


2) RPretreatment(T.) 

3) SFindSsentence(R, U) 

4) PGenerate(S) 

5) R” —Mop(P) 

6) End foreach 
其 中 ，2) 是 从 标注 语 料 Ti 中 提取 提问 模式 元 组 R。3) 是 从 未 标 
注 语 料 中 找 出 包含 元 组 的 上 下 文 S。4) 是 通过 S 构造 句子 模式 ， 
即 在 上 下 文中 选 定 包含 元 组 信息 的 内 容 ， 这 也 是 算法 核心 部 
分 。 传 统 算法 通过 语法 和 领域 知识 制定 规则 确定 内 容 ， 生 成 
一 个 形 如 3.1 的 七 元 组 : 


义 常量 ，w 表示 当前 词 的 词 向 量 表示 ，Z2 = 2 ep (yc) 表示 


之 前 词 向 量 与 句 向 量 的 内 积 和 ， 也 是 一 个 常量 。 对 (3 ) 式 取 
对 数 ， 得 到 s 的 最 大 似 然 估计 
记 (6)=e8 p00) + 中 人 人 | ， 按 于 展开 式 得 出 ， 
c 的 极 大 似 然 估计 正比 于 所 有 词 向 量 的 加 权 求 和 ， 


a 1 一 C 
arg max > 了 (cj CC pb Vw Wherea = > O) 


和 wa p(w)+a 
词 向 量 v, 的 权 值 称 为 “逆光 滑 频率 ”， 权 值 中 包含 两 个 
参数 p(w) 和 a ， 在 该 方法 中 ， 还 引入 公共 句子 向 量 c, 的 概念 ， 
来 表述 所 有 句子 共有 的 匈 余 语义 ， 因 此 最 终 的 句子 向 量 v, 中 
需要 减 去 c, 的 部 分 。Sentence2vec 算法 如 下 : 
算法 2: 
输入 : 词 向 量 {Vv :weV}， 问 句 集 5 ， 参 数 a 以 及 每 个 词 出 现 的 概 


sentence2vec 
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率 估 计 {p(w):weV} 
输出 ， 相 似 句 子 向 量 {v, :se€ S} 
7) for all sentence s in S do 


1 a 


VV, 
Isl p(w)+a 


8) end for 
9) Compute the first principal component u of {v,:ses} 
16) for all sentence s in S do 

Vy, =C,—C,C,C, 
13) end for 
其 中 ，8) 表示 生成 当前 语义 向 量 ， 为 了 求解 参数 4 ， 对 比 
word2vec 的 CBOW 模式 中 的 语言 模型 : 


1 5 
Pr[w, | Wi a w,s] exp (V,,V,), where®, 一 She (3) 
1=1 


区 


WwW-s 表示 当前 语 境 〈 设 句子 长 度 为 5)，w, 当 前 语 
的 下 一 个 单词 ， 整 个 语言 模型 正比 于 下 一 个 词 向 量 w 和 语 
中 平均 向 量 V 的 内 积 。 在 这 里 ， 每 个 词 向 量 的 极 大 似 然 估 
计 可 以 表示 为 : 

8(W)= > logoWv)+ 2 logo(-hv, 
(w,c)eD (w 


icjeD 


党 


(4) 


式 (4) 的 第 二 项 为 负 采 样 项 ，c(z) 为 sigmoid 函数 ， 分 
为 新 出 现 非 w 集合， 求解 fw,) 的 参数 立时 ， 需 要 通过 随机 
下 降 的 方式 确定 梯度 ， 句 子 中 每 个 词 向 量 的 参数 是 一 个 贝 努 


期 望 可 以 


轨 布 om) 由， 则 新 出 现 的 词 w 的 
p(w,;) 


前 文 词 向 量 的 加 权 求 和 : 


q (Ws)V,, + q (Wa)V,, +q(W_3)v,, 十 
E(g(v,)) | js 
q (WwW,)v, , q (Ww 1)V,, 


式 (5) 在 形式 上 可 以 类 比 同样 采用 随机 梯度 下 降 的 式 (1)。 
而 在 本 次 实验 的 数据 集 上 随机 抽样 了 500 个 词 ， 当 a =0.001 时 ， 


表示 为 其 


gq(wi) 与 式 (3) 中 的 权 值 几乎 相同 ， 在 句子 相似 度 表 现 最 好 。 


在 得 到 名 向 量 之 后 ， 通 过 皮尔 森 相 关系 数 计算 名 向 量 这 
则 的 相似 度 。 对 相似 度 降序 排序 ， 计 算 相 邻 结果 相似 度 的 差 
值 ， 当 差 值 超过 阔 值 二 0.2 时 ， 认 为 语句 不 相似 ， 将 之 前 的 语 
句 输出 作为 相似 语句 ， 作 为 生成 新 元 组 的 模式 。 


3 ”实验 及 性 能 分 析 


实验 数据 及 性 能 指标 

本 章 将 针对 上 一 章 介 绍 的 模块 进行 调 优 和 对 比 实验 。 本 
文 实验 数据 通过 网 络 朴 虫 从 Web 页 面 获取 中 文 问答 对 (FAQs )， 
主要 有 三 个 来 源 : a) 电信 10000 号 FAQs，83121 条 ; b) 百度 
知道 相关 类 目 问答 ，37400 条 ; c) 新 浪 爱 问 知识 人 相关 类 目 
问答 ，43020 条 。 在 实验 前 清洗 了 一 些 噪声 数据 不 包含 相关 
领域 实体 的 问 句 ， 含有 特殊 字符 的 问答 对 ;统计 发 现 ， 一 般 问 
句 不 会 超过 30 个 词 以 上 ， 主 要 分 布 在 15 个 词 左右 ， 因 此 字数 
超过 30 的 句子 也 舍弃 ， 最 终 整个 数据 包含 129937 条 问答 对 。 
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三 


3.1 


张 金 和 于， 等: 基于 Sentence2vec 与 半 监 督 算法 的 中 文 问 答 提 问 模式 抽取 


本 文 的 实 


全 已 
He; 


结合 sentence2vec 


验 包 括 以 下 四 个 : a) 测评 CRF 抽取 提问 模式 
b) 对 比 sentence2vec 与 传统 方法 性 能 ，c) 测 评 本 文 提出 的 
的 半 监 督 算法 抽取 标注 提问 模式 效果 性 能 ; 


的 性 


d) 比 较 本 文 方法 与 基于 规则 匹配 句 式 的 传统 Bootstrapping 算法 
之 间 的 性 能 。 本 文 的 测评 标准 包括 : 准确 率 
_ 正确 识别 的 元 组 个 数 召回 率 及 -正确 识别 的 元 组 个 数 
识别 的 元 组 个 数 ” 数据 集中 元 组 个 数 
E 值 二 2PR 有 
P+R 


3.2 CRF 标注 性 能 分 析 


本 文采 


本 身 和 词性 特征 
征 选取 对 CRF 标注 的 影响 ， 本 文 设 定 两 


一 


6 测评 指标 ; 
性 能 的 影响 。 


1 所 示 。 其 中 ， 


窗 


“1W" 是 指 观测 窗口 


“1W+2” 是 指 观测 


大 小 为 1， 


以 此 类 推 。 


结 


大 小 为 2 


Sw 
术 Y 耿 人 不 称 


特征 的 情况 表现 较 好 ，; 


接 


表 1 


不 同 1 


口 大 小 对 标注 性 能 


的 CRF 通过 开源 框架 sklearn-crfsuite 实现 。 词 


语 


样本 随机 选取 了 500 条 语 料 ， 窗 口 大 小 对 性 能 所 
大 小 为 1， 观 测 一 维特 征 。 
同时 观测 两 个 词 的 特征 ， 


作为 原始 的 两 项 特征 。 为 了 验证 其 他 几 项 特 
种 情况 来 验证 加 入 后 
的 影响 ， 加 入 多 元 特征 


E 对 


同时 观测 


词 特征 
确 率 分 别 达 到 了 66.31% 和 66.62%， 
下 来 以 这 两 项 继续 添加 多 元 特征 来 观测 性 能 。 


大 小 及 观测 数量 对 CRF 标注 结果 的 影响 /% 


lIW 


2W 3W 1W+2 1W 


H3 2W+2 2W+3 


3W+2 3W+3 


准确 率 62.64 63.39 63.51 66.27 65.37 66.31 65.62 64.31 64.31 


名 35.74 37.84 37.33 38.72 38.74 38.70 39.02 38.73 38.43 


F 值 46.77 47.39 47.02 48.89 48.64 48.88 48.93 48.34 48.11 


这 里 ,| F 


存 树 层 数 (F2)、 
析 路 径 (F4) 以 及 依存 语法 立 
时 选取 实体 类 型 ， 依 存 


时 取得 了 最 高 


六 


生 特征 的 补充 


代表 候选 的 特征 。 


实体 类 型 (F1)、 当 前 词 所 在 依 


结果 如 表 2、 


是 否 是 其 他 词 的 依存 词 (F3)、 当 前 词 的 句法 分 
型 (F5 )。 
径 ， 依 存 类 型 作为 特征 


3 所 示 ， 同 
在 标注 关系 


的 性 能 。 其 中 ，F2 和 F3 是 作为 整体 表征 当前 词 


依存 类 型 则 是 表现 语法 对 于 提问 模式 的 作用 。 
析 路 径 并 没有 对 整个 标注 性 
时 间 ， 本 文 最 终 舍弃 这 个 特征 。 


在 依存 树 中 的 位 置 的 ， 而 依存 关系 对 于 性 能 提 姑 
析 数 据 后 发 现 ， 有 些 提 问 模式 在 句 中 表现 形式 并 不 是 连续 的 ， 
需要 词语 之 间 相 互 依存 关系 作为 特征 。 


| 明显， 在 分 


而 实体 类 型 作为 对 词 


和 述 ， 也 起 到 了 一 定 提升 性 能 的 作用 。 


但 句法 分 


能 有 太 大 的 提升 。 考 虑 模型 训练 
根据 以 上 实验 ， 


最 终 的 窗口 


大 小 为 2， 特 征 为 词语 字符 、 词 性 、 实 体 类 型 、 依 存 路 径 和 依 
存 关系 类 型 。 
表 2 窗口 2w+2 不 同 特征 模板 对 CRF 性 能 的 影响 
模板 Fl F123 F1234 F12345 F1235 
准确 率 72.60% 81.62% 81.8% 82.78% 82.52% 
召回 率 38.84% 41.33% 41.72% 41.74% 41.70% 
F 值 47.39% 47.02% 48.89% 48.64% 48.88% 
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表 3 窗口 3w+3 不 同 特 和 


E 模 板 对 CRF 性 能 的 影响 


金 和 王 ， 等 : 基于 Sentence2vec 与 半 监 督 自 


取 履 盖 率 的 想法 是 可 行 的 。 


模板 Fl F123 


F1234 F12345 F1235 


准确 率 ”68.6% 63.51% 


66.27% 65.37% 66.31% 


召回 率 ”37.84% 37.33% 


38.72% 38.74% 38.70% 


F 值 47.39% 47.02% 


48.89% 48.64% 48.88% 


将 模型 在 整个 数据 集 上 进 
验证 的 方案 ， 并 对 结果 随机 抽样 1000 条 进行 人 了 
如 图 2 所 示 ， 准 确 率 为 83.7%， 但 召回 率 仅 为 31.8%， 基 于 有 
监督 的 算法 抽取 的 提问 模式 基本 准确 ， 但 覆盖 率 不 高 ， 下 面 


行 实验 ， 本 文采 取 了 十 折 交 又 


准确 率 P 和 召回 这 RR 


[验证 。 结 果 


6 N00 6800 $00 1000 


将 会 实验 半 监督 算法 对 性 能 的 提升 效果 。 


02 


~ 人 


100 200 300 400 


500 600 700 800 90 1000 
机 样 数 入 


图 2 有 监督 算法 提问 模式 抽取 的 性 能 


3.3 语义 相似 度 性 能 分 析 


在 分 析 半 监 督 算 法 性 能 之 前 ， 本 文 将 对 比 对 sentence2vec 
的 性 能 。 本 文 的 深度 学 习 模 型 都 基于 TensorFlow 框架 实现 ， 
数据 为 原始 语 料 中 随机 抽样 2000 对 问 句 ， 这 里 主要 关注 的 是 
除 实体 外 的 提问 模式 语义 是 否 相 似 。 本 文采 用 了 一 些 其 他 方 
法 进行 对 比 ， 包 括 基于 TextRank 相似 度 、 基 于 LDA 相似 度 和 
基于 word2vec 线性 相 加 相似 度 ， 结 果 与 人 工 判别 相似 结果 对 


比 。 


从 表 4 可 以 看 出 ， 基 于 深度 学 习 语 言 模型 sentence2vec 也 
语义 相似 度 计 算 在 准确 率 上 的 表现 要 明显 优 于 基于 TextRank 
的 相似 度 计 算 和 基于 word2vec 线性 相 加 的 相似 度 ， 也 比 基 于 


LDA 相似 度 的 准确 率 略 高 。 


动 标注 对 性 能 的 影响 


3.5 改进 的 Bootstrapping 算法 性 能 对 比分 析 
[ 作 的 启发 ， 本 文 设 计 对 
Bootstrapping 算法 迁移 到 提问 模式 抽取 


期 刊 


问 模式 抽取 


| 比 实验 ， 将 传统 


体 步 又 如 


算法 1 所 示 P0。 在 关键 步骤 和) 中 ， 以 七 元 组 
作为 句 式 模板 进行 匹配 ， 对 比 本 文 提 # 


体 上 下 文 


法 。 实 验 数 


可 率 对 比 


如 图 4、5 所 示 。 


4 ”基于 sentence2vec 语义 相似 度 与 其 他 算法 性 能 对 比 


100 200 300 400 500 600 700 800 900 1000 


进 后 的 Bootstrapping 本 


2 
100 200 30 40 500 600 700 80 900 1000 
抽样 数 入 


进 后 的 Bootstrapping 


上 时， 传统 的 Bootstrapping 算法 迁移 效果 


方法 正确 匹配 的 问 句 ”准确 率 (%) 
基于 TextRank 相似 度 654 32.7 
基于 LDA 相似 度 1526 76.3 
基于 word2vec 线性 相 加 相似 度 1242 62.1 
基于 sentence2vec 相似 度 1747 87.4 


佳 确 率 对 比 


才 比 


不 理想 ， 


日 同 的 文本 中 虽然 还 可 以 保证 一 定 的 准确 率 召 世 


3.4 自动 标注 元 组 抽取 性 能 分 析 


通过 自动 标注 得 到 了 更 
机 采样 1000 条 进行 人 工 验 证 。 


对 inl 


率 为 80.3%， 召 回 率 为 71.6%，F1 值 为 75.7%。 可 以 看 到 最 终 
得 到 在 加 入 了 自动 标注 的 结果 后 ， 召 回 率 有 了 明显 的 提升 ， 
虽然 在 最 终结 果 的 准确 率 上 略 有 下 降 ， 但 正确 的 关系 实例 数 
量 显著 提高 ，F1 值 的 明显 提升 充分 证 明 半 监督 算法 对 提高 


由 取 的 准确 关系 实 亿 
出 现 了 “语义 漂移 ”的 现象 。 本 文 
E 了 在 抽取 过 程 中 ， 发 现 句 式 的 稳定 性 ， 
能 在 数据 量 增长 的 同时 仍 能 
率 ， 实 验 结果 证 明 ， 
侍 确 率 达 到 了 83.5%， 召 
传统 的 方法 ， 当 数 拉 
于 不 再 依赖 文本 


的 标注 预料 ， 对 最 终结 果 随 
3 为 标注 的 性 能 展示 ， 准 确 


率 和 召 E 
监督 算法 ， 在 抽样 
率 达到 了 70.3%。 相 较 于 
能 得 到 了 有 效 的 提升 。 并 


I 


中 
四 | 


Ik 


/ 


| 数量 迅速 变 少 ， 
对 同 义 句 式 


此 ， 本 文 的 方法 也 具有 


录用 稿 


较 好 的 可 移植 性 和 重 棒 性 。 


4 ”结束 语 


本 文 提 出 了 一 种 面向 中 文 问答 对 的 提问 模式 抽取 的 方法 ， 
将 提问 模式 看 做 两 个 事件 之 间 的 关系 进行 抽取 。 采 用 监督 学 
习 的 算法 得 到 提问 模式 的 种 子 集 ， 再 通过 bootstrapping 算法 ， 
利用 模式 元 组 的 二 元 性 得 到 更 多 的 提问 模式 。 针 对 问答 对 中 
不 存在 显 性 实体 对 的 情况 ， 本 文 提出 了 一 种 基于 sentence2vec 
算法 的 文本 相似 度 计 算 方法 ， 用 于 得 到 可 信 的 句子 模式 ， 从 
而 有 效 的 提高 了 提问 模式 抽取 的 准确 性 与 泛 化 性 ， 在 Web 网 
页 中 随机 抓 取 的 电信 和 领域 文本 实验 结果 也 证 明了 本 文 方法 的 
有 效 性 ， 此 方法 也 可 以 推广 到 其 他 领域 的 问答 对 的 抽取 问题 
中 。 接 下 来 会 在 更 广泛 的 Web 页 面 文本 上 进行 实验 ， 寻 找 更 
多 表征 提问 模式 的 特征 ， 设 计 更 好 的 自动 标注 算法 ， 以 期 覆 
盖 更 丰富 类 型 的 文本 。 
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